第 3 章 · RLHF（一）-什么是对齐

第3章第1节 RLHF（一）-什么是对齐

阅读指南

电影《年会不能停》里，大鹏饰演的HR有句经典口头禅——"对齐颗粒度"。无论什么事，他都要先来一句："我觉得咱们要对齐一下颗粒度。"什么意思？就是"咱们得先把话说到一个频道上，理解要一致"。比如说"人员优化"，HR理解的是"裁员"，员工理解的是"培训"——这就是颗粒度没对齐。说的是同一个词，但双方理解的完全不是一回事。这个梗放在AI上，就是让AI的行为和人类的价值观、意图、期待对上。HR和员工要对齐"人员优化"的理解，ChatGPT和人类要对齐"什么是好的回答"。这就是OpenAI要解决的核心问题。

1.1 什么是对齐

在AI的语境里，"对齐"(Alignment)指的是:

让AI系统的行为，与人类的价值观、意图和期望保持一致。

听起来很简单，对吧？但仔细想想，这个定义里藏着巨大的复杂性。

"人类的价值观"是什么？这可能是有史以来最难回答的问题之一。不同文化有不同的价值观，不同时代有不同的道德标准，甚至同一个人在不同情境下，都可能有矛盾的价值判断。

为什么"对齐"如此重要

来看一个不对齐的AI可能造成的问题。

想象一个纯粹追求"预测准确"的语言模型。它的目标很简单:给定上文，预测最可能的下文。

用户:"我感觉很痛苦，该怎么办？"

一个只追求"预测准确"的模型，会怎么回应？

它会在互联网的训练数据中，找到最常出现在这种话题后面的文字。可能是:

"我感觉很痛苦。也不知道该怎么办。每天都很累，
什么都不想做。"

从统计上讲，这可能确实是互联网上这类话题的常见续写。但这样的回答，对用户有帮助吗？不，它甚至可能有害——它强化了负面情绪。

一个"对齐"的AI应该这样回应:

"听到您感到痛苦，我很关心。虽然我是AI，但我想让您知道，您的感受是被重视的。

如果您愿意分享，我在这里倾听。无论是什么让您感到痛苦，说出来可能会有帮助。

同时我想提醒您:

如果痛苦持续或加重，寻求专业心理咨询师的帮助很重要

和信任的朋友或家人倾诉也是好方法

您现在愿意说说吗?"

第一个回应，统计上"准确"，但人性上"错误"。第二个回应，可能不是统计上最常见的，但它是人性上"正确"的。

这就是我们需要"对齐"的原因

因为我们需要的不是一个"统计上准确"的机器，而是一个"人性上正确"的助手。

对齐的三个核心目标

OpenAI在研发ChatGPT时，明确提出了对齐的三个目标。这三个词，用英文说是Helpful、Honest、Harmless。翻译成中文：

Helpful（有帮助的）

这不仅仅是"回答问题"，而是真正理解用户的意图，提供有用的、可操作的建议，主动帮助用户完成任务，在用户困惑时引导而非说教。

Honest（诚实的）

这意味着承认自己不知道的事情，表达适当的不确定性，不夸大自己的能力，在信息可能不准确时明确告知。

Harmless（无害的）

这要求拒绝有害的请求，避免产生偏见或歧视，尊重用户隐私，不强化危险的想法或行为。

这三个目标，听起来简单，实现起来却极其困难。因为它们常常是相互冲突的:

如果我"诚实"地承认不知道，可能就不够"有帮助"
如果我"有帮助"地提供了很多建议，可能就包含了一些"有害"的可能性
如果我过于追求"无害"，可能就会变得过于谨慎，失去"有帮助"的能力

在这三者之间找到平衡，就是"对齐"的艺术。

1.2 三个阶段的全景图

从GPT-3到ChatGPT，OpenAI用了三个递进的阶段，一步步"对齐颗粒度"。

三步走：从GPT-3到ChatGPT

阶段1：预训练

这个阶段解决的是如何理解语言的问题。通过海量文本训练，模型学会了语言的统计规律，能够预测下一个词的概率分布。

输出模型：GPT-3

阶段2：监督微调

这个阶段转向如何回答问题的任务。用人工标注的问答对进行训练，让模型学会指令跟随，知道用户在提问时需要给出答案，而不是继续"接龙"。

输出模型：GPT-3.5-SFT（InstructGPT）

阶段3：强化学习对齐（RLHF）

这一步深入到如何给出"好"答案的价值判断。核心能力是价值判断和偏好对齐，使用数万条人类偏好标注数据进行训练，让模型学会符合人类价值观的回答方式。

输出模型：ChatGPT

三个阶段的内在逻辑

这三个阶段解决的是三个不同层次的问题:

能力层(预训练):AI能做什么? → 理解和生成语言
任务层(监督微调):AI应该做什么? → 回答问题、完成指令
价值层(RLHF):AI应该怎么做? → 以符合人类价值观的方式帮助用户

三者缺一不可，不能颠倒顺序，也不能跳过任何一步。前面两个阶段虽然已经让模型有了能力，但还缺少最关键的一步——价值对齐。这就是为什么我们需要RLHF。

1.3 RLHF的核心

现在，我们来到了最关键、也是最微妙的一步。

这一步，不是教模型新的知识，也不是教它新的技能，而是教它:什么是"好"，什么是"不好"。

这涉及价值判断，涉及人类的偏好，涉及那些我们自己都很难用语言描述，但能直觉判断的东西。

RLHF：全称Reinforcement Learning from Human Feedback，基于人类反馈的强化学习。它背后的核心理念可能是整个ChatGPT训练流程中最聪明的一个想法:

我们很难定义"什么是好的答案"
但我们很容易比较"哪个答案更好"。

这个思维巧妙地绕过了一个几乎无解的难题：

如果直接问："什么是好答案？"很难给出清晰的标准。清晰？有逻辑？有帮助？这些都太抽象了，不同场景、不同人的标准完全不同。

但如果给两个答案，问："哪个更好？"几乎可以立刻判断出来——即使说不清楚"为什么"。

RLHF的聪明之处就在于：不去定义"好"，而是去学习"人类的偏好"。

1.4 下节预告

有了RLHF的核心理念，接下来就是具体的实施步骤。OpenAI是如何一步步实现这个目标的？下一节，我们将深入RLHF的三个具体步骤，看看这个"对齐"的过程是如何完成的。

1.5 ■ 学点英语

中文	English	音标	说明
对齐	Alignment	/əˈlaɪnmənt/	让AI系统的行为与人类价值观、意图和期望保持一致
有帮助的	Helpful	/ˈhelpfl/	对齐三目标之一：真正理解用户意图并提供有用建议
诚实的	Honest	/ˈɒnɪst/	对齐三目标之一：承认不确定、不夸大能力
无害的	Harmless	/ˈhɑːmləs/	对齐三目标之一：拒绝有害请求、避免偏见
人类反馈强化学习	Reinforcement Learning from Human Feedback (RLHF)	/ˌriːɪnˈfɔːsmənt ˈlɜːnɪŋ frəm ˈhjuːmən ˈfiːdbæk/	利用人类偏好数据训练语言模型的技术范式
监督微调	Supervised Fine-Tuning (SFT)	/ˈsuːpəvaɪzd faɪn ˈtjuːnɪŋ/	用人工标注的问答对训练模型学会指令跟随
偏好	Preference	/ˈprefrəns/	两个候选中"哪个更好"的相对判断
价值观	Values	/ˈvæljuːz/	判断"好"与"坏"的内在标准，难以枚举定义

1.6 ■ 思考帧

◀ 监督微调（三）-对比与局限

返回目录

▶ RLHF（二）-RLHF的三个步骤

第3章 第1节 RLHF（一）-什么是对齐